#H100 GPU
對標H100!中國國產GPU“核彈”參數曝光:1000TFLOPS算力,性能直逼Blackwell?
摩爾線程AI旗艦級計算卡MTT S5000性能首次曝光,這是摩爾線程2024年推出的、專為大模型訓練、推理及高性能計算而設計的訓推一體全功能GPU智算卡。摩爾線程在其官網中,首次公佈了S5000的硬體參數:支援FP8到FP64的全精度計算,其單卡AI算力(FP8)最高可達1 PFLOPS,視訊記憶體容量為80GB,視訊記憶體頻寬達到1.6TB/s,卡間互聯頻寬為784GB/s。業內人士表示,MTT S5000實測性能對標H100,在多模態大模型微調任務中,部分性能甚至超越H100。在晶片架構層面,S5000採用第四代MUSA架構“平湖”,專為大規模AI訓練最佳化,依託MUSA全端軟體平台,原生適配PyTorch、Megatron-LM、vLLM及 SGLang等主流框架,讓使用者能夠以“零成本”完成程式碼遷移,相容國際主流CUDA生態。在計算精度方面,S5000作為國內一批最早原生支援FP8精度的訓練GPU,配置了硬體級FP8 Tensor Core加速單元。相比傳統的BF16/FP16,FP8可將資料位寬減半,視訊記憶體頻寬壓力降低50%,理論計算吞吐量翻倍。其FP8引擎全面支援DeepSeek、Qwen等前沿架構,可提升30%以上訓練性能。基於S5000建構的誇娥萬卡叢集已經落地,其浮點運算能力達到10Exa-Flops,在Dense模型訓練中MFU達60%,在MoE模型中維持在40%左右,有效訓練時間佔比超過90%,訓練線性擴展效率達95%。依託原生FP8能力,它能夠完整復現頂尖大模型的訓練流程,其中Flash Attention算力利用率超過95%,多項關鍵指標均達到國際主流水平。在叢集通訊層面,S5000採用獨創的ACE技術,將複雜通訊任務從計算核心解除安裝,實現計算與通訊的零沖突平行,大幅提升模型算力利用率(MFU)。實測顯示,從64卡擴展至1024卡,系統保持90%以上的線性擴展效率,訓練速度隨算力增加幾乎同步倍增。2026年1月,智源研究院基於S5000千卡叢集,完成了前沿具身大腦模型RoboBrain 2.5的端到端訓練與對齊驗證。結果顯示,與輝達H100叢集的訓練結果高度重合,訓練損失值(loss)差異僅為0.62%。除了訓練,S5000在推理場景同樣表現優異。2025年12月,摩爾線程聯合矽基流動,基於S5000完成了對DeepSeek-V3 671B滿血版的深度適配與性能測試,實測單卡Prefill吞吐超4000 tokens/s,Decode吞吐超1000 tokens/s,這一成績刷新了國產GPU的推理紀錄。 (芯榜)
對標H100!摩爾線程GPU“核彈”:參數曝光!
對標H100!國產GPU“核彈”參數曝光:1000TFLOPS算力,性能直逼Blackwell?摩爾線程AI旗艦級計算卡MTT S5000性能首次曝光,這是摩爾線程2024年推出的、專為大模型訓練、推理及高性能計算而設計的訓推一體全功能GPU智算卡。摩爾線程在其官網中,首次公佈了S5000的硬體參數:支援FP8到FP64的全精度計算,其單卡AI算力(FP8)最高可達1 PFLOPS,視訊記憶體容量為80GB,視訊記憶體頻寬達到1.6TB/s,卡間互聯頻寬為784GB/s。業內人士表示,MTT S5000實測性能對標H100,在多模態大模型微調任務中,部分性能甚至超越H100。在晶片架構層面,S5000採用第四代MUSA架構“平湖”,專為大規模AI訓練最佳化,依託MUSA全端軟體平台,原生適配PyTorch、Megatron-LM、vLLM及 SGLang等主流框架,讓使用者能夠以“零成本”完成程式碼遷移,相容國際主流CUDA生態。在計算精度方面,S5000作為國內一批最早原生支援FP8精度的訓練GPU,配置了硬體級FP8 Tensor Core加速單元。相比傳統的BF16/FP16,FP8可將資料位寬減半,視訊記憶體頻寬壓力降低50%,理論計算吞吐量翻倍。其FP8引擎全面支援DeepSeek、Qwen等前沿架構,可提升30%以上訓練性能。基於S5000建構的誇娥萬卡叢集已經落地,其浮點運算能力達到10Exa-Flops,在Dense模型訓練中MFU達60%,在MoE模型中維持在40%左右,有效訓練時間佔比超過90%,訓練線性擴展效率達95%。依託原生FP8能力,它能夠完整復現頂尖大模型的訓練流程,其中Flash Attention算力利用率超過95%,多項關鍵指標均達到國際主流水平。在叢集通訊層面,S5000採用獨創的ACE技術,將複雜通訊任務從計算核心解除安裝,實現計算與通訊的零沖突平行,大幅提升模型算力利用率(MFU)。實測顯示,從64卡擴展至1024卡,系統保持90%以上的線性擴展效率,訓練速度隨算力增加幾乎同步倍增。2026年1月,智源研究院基於S5000千卡叢集,完成了前沿具身大腦模型RoboBrain 2.5的端到端訓練與對齊驗證。結果顯示,與輝達H100叢集的訓練結果高度重合,訓練損失值(loss)差異僅為0.62%。除了訓練,S5000在推理場景同樣表現優異。2025年12月,摩爾線程聯合矽基流動,基於S5000完成了對DeepSeek-V3 671B滿血版的深度適配與性能測試,實測單卡Prefill吞吐超4000 tokens/s,Decode吞吐超1000 tokens/s,這一成績刷新了國產GPU的推理紀錄。 (芯榜)
地球「養不起」輝達GPU
【新智元導讀】地球現在連顯示卡都供不起了,微軟的GPU插不進機房。輝達的H100直接飛向太空。輝達的GPU,地球真的已經「供不起了」!今天看到兩個新聞,一個是微軟手裡囤了無數的GPU,但是「插不進去」。另一個是輝達H100 GPU被發射到太空組建資料中心。這兩個事情其實背後都隱藏著一個深刻問題:GPU是造出來了,但是配套服務於GPU,給GPU供電,給GPU散熱的基礎設施並沒有跟上!先說微軟的GPU放在庫房裡吃灰這件事。微軟CEO納德拉在與OpenAI奧特曼的訪談中爆出驚人事實——微軟手中囤積著大量GPU。卻「沒有足夠電力」讓它們運轉。另一個原因則更為現實,缺少可以立馬「插入GPU」的資料中心。納德拉坦言:我現在的問題不是晶片不夠,而是沒有能插進去的「溫暖機殼」(Warm Shell)。所謂「Warm Shell」指的是具備供電與冷卻條件的資料中心外殼。用一個對比就能快速理解這個概念,建築學上,相對Warm Shell則是Cold Shell。Cold shell指的是建築結構/外殼基本具備,但室內幾乎沒有或只有極少的系統安裝。Warm Shell則是更準備好了的狀態,安裝並可以使用基本的建築系統,比如散熱系統、暖通空調(HVAC)、照明、基本電/水/消防系統等。AI熱潮引發的晶片競賽,如今正受制於最傳統的瓶頸——電力。美國電網面臨前所未有的壓力,而科技巨頭則競相佈局小型核反應堆以自救。與此同時,奧特曼還提到未來可能出現「能在本地運行GPT-5或GPT-6」的低功耗消費裝置,這或將徹底顛覆現有資料中心商業模式。地球養不起,「發配」到太空相比奧特曼提出的低功耗裝置,另一個新聞則提供了新的思路。輝達借助Starcloud的Starcloud-1的衛星,將H100送到太空!11月2日,星期日,輝達首次將H100 GPU送入太空,以測試資料中心在軌道上的運行方式。這款配備80GB記憶體的GPU,比以往任何在太空中飛行的電腦都強大一百倍。支持者認為這一想法很合理:在遠離地球的太空空曠處,資料中心不會佔用寶貴土地,也不需要那麼多能源和水來冷卻,也不會向大氣中排放加劇變暖的溫室氣體。這次為期三年的任務將搭乘SpaceX的Bandwagon 4獵鷹9號(Falcon 9)發射。重量為60公斤的Starcloud-1衛星將在約350公里高度的非常低軌道繞地飛行。在那裡,它將接收由美國公司Capella營運的一隊合成孔徑雷達(SAR)地球觀測衛星傳來的資料,對其進行即時處理,並向地面傳送消息。GPU上天的好處而在太空設立資料中心另一大優勢就是,只需回傳很小部分的資料。下行傳輸合成孔徑雷達(SAR)資料歷來是個大問題,因為資料量極其龐大。但能夠在軌處理就意味著我們只需下行傳輸「洞見」。什麼是洞見?所謂洞見可能是某艘船在某個位置以某個速度朝某個方向航行。那只是一小包約1千字節的資料,而不是需要下傳的數百吉字節原始資料。簡單來說,就是讓演算法貼近資料來源頭,在本地完成篩選、融合與推理,僅把高價值的「資訊摘要」回傳。再簡單點(但不一定精確),就是資料都在外太空處理好,只傳送回來結論。這種方式能更好地實現低時延響應、顯著節省頻寬與能耗、提升韌性(斷聯/災害場景可持續運行),並降低敏感資料外洩風險。為什麼要把GPU送到太空?和微軟CEO納德拉的煩惱不一樣,Starcloud是主動探索這種資料中心模式。就像他們的公司名字一樣,Stra Cloud,太空的資料中心。當然這麼做的主要驅動力不是為了GPU降溫。而是地球能源與資源的瓶頸:地球資料中心太耗能了!到2030年,全球資料中心的耗電量預計將等於整個日本的用電量。同時,它們每天要消耗海量冷卻用水(1 MW 級中心≈1000人日用水量)。相比下來,太空則是有天然優勢。無限太陽能:軌道上 24 小時都有陽光,無需電池儲能。零土地佔用:不需要地面建設,不破壞生態。無溫室氣體排放:不依賴化石能源。歸根到底,還是現在AI的算力需求爆炸。AI模型越做越大(如GPT、Claude、Gemini等),能源和冷卻成本飛漲,企業急需新解法。因此,太空資料中心被視為長期可擴展的解決方案。通過利用低成本、持續不斷的太陽能,並避免佔用土地和使用化石燃料,Starcloud的技術使資料中心能夠快速且可持續地擴展,隨著數字基礎設施的發展,這有助於在保護地球氣候和關鍵自然資源的同時實現增長。那太空能「散熱」嗎?另一個值得一提的就是,很多人覺得GPU上天,是因為地球太熱,太空好散熱。其實不是的。太空能散熱,但很困難。太空幾乎沒有空氣,所以不能用風扇或液體循環帶走熱量(這叫對流散熱)。對流散熱指的是「熱的流體(液體或氣體)移動,把熱量從一個地方帶到另一個地方」的過程。只剩下輻射散熱這一種方式:輻射散熱是「物體通過電磁波/紅外波,把熱量以波的形式發射出去」的過程。裝置通過紅外輻射向外太空釋放熱量。散熱效率取決於輻射面積、材料發射率和溫度。因此衛星或太空GPU需要大面積的散熱板(radiators),設計極其關鍵。在Starcloud的項目中,這部分被特別強化:他們為H100設計了專用熱輻射系統,利用真空中的高溫差和導熱材料實現散熱。為了給地球省電、省地、省水,去太空建資料中心靠譜嗎?Starcloud的首席執行官兼聯合創始人約翰斯頓說:我的預期是,在十年內,幾乎所有新建的資料中心都會建在太空。原因純粹是我們在陸地上面臨的能量限制。約翰斯頓說在太空中唯一的額外成本就是發射費。發射成本在每公斤約(美)500 美元時能夠達到收支平衡。按每千克計算,SpaceX的星艦在完全投入營運後,發射價格估計在150美元到僅10美元不等。隨著星艦的投入使用,我們預計發射成本會更低。Starcloud已經在規劃其下一次任務,計畫明年將一個計算能力比Starcloud-1強十倍的資料中心送入太空。Starcloud-2任務將配備輝達的Blackwell GPU和若干H100。約翰斯頓表示,該任務將提供7千瓦的計算能力,預計為包括地球觀測衛星營運商客戶提供商業服務。微軟的「沒有溫暖機殼」,和Starcloud把H100送上天,本質上是同一道題。AI再厲害,算力需求再大,也不能突破物理定律。 (新智元)
一文帶你詳細瞭解輝達Hopper H100 GPU
輝達H100 GPU,代號Hopper,是NVIDIA於2022年推出的第九代資料中心GPU,專為AI訓練、大模型推理、高性能計算(HPC)場景打造,是A100的直接繼任者。定位關鍵詞:旗艦等級GPU:定位高端,面向大型AI模型訓練與推理。NVLink高速互聯:設計用於超大規模GPU叢集。Transformer專精最佳化:對大模型結構進行硬體等級適配。FP8創新:引領下一代低精度計算標準。應用方向:大語言模型訓練(如GPT-4)AI推理與微調高性能科學計算(HPC)智能推薦系統、金融量化分析等一. H100 GPU的核心技術(1)新架構:Hopper vs AmpereH100基於Hopper架構,採用台積電4nm製程,相較前代A100(Ampere架構,7nm),在能效比、計算密度上提升巨大。(2)Transformer Engine:為大模型“量體裁衣”大語言模型的訓練95%以上的算力集中在Transformer結構上,H100內建的Transformer Engine通過FP8+Tensor Core加速,能夠顯著提升訓練速度。自動選擇精度(FP8/FP16)動態權重縮放,提升數值穩定性性能可比A100快4倍以上(某些任務)(3)NVLink 4.0與NVSwitch:為大模型而生的互聯架構H100支援第四代NVLink互聯,每塊GPU之間頻寬高達900GB/s,通過NVSwitch可建構規模龐大的GPU叢集。應用價值:無需通過PCIe互聯,延遲降低一半支援8~256張H100互聯訓練GPT-4等超大模型(4)多精度計算支援:FP8 引領新標準H100首次引入FP8浮點格式,並保留FP16、BF16、TF32、FP64全端精度,AI訓練推理靈活切換,在保持精度的同時極大提升運算吞吐量。二. H100 GPU詳細規格H100提供兩種型號:H100 SXM和H100 NVL,分別針對不同場景最佳化。以下是詳細規格對比:性能亮點:AI訓練:GPT-3(175B)訓練速度提高4倍。AI推理:最大模型(如Megatron 530B)推理速度提高30倍。HPC應用:3D FFT、基因測序等任務性能提高7倍。浮點性能:60 teraFLOPS FP64,1 petaFLOPS TF32。動態程式設計:DPX指令比A100快7倍,比CPU快40倍。記憶體頻寬:每GPU 3TB/s,系統頻寬高達傳統伺服器的30倍。三. 競品對比與相關產品進行對比:具體分析如下:A100:仍在大量使用,但性價比被H100反超。MI300:高視訊記憶體有優勢,但生態相容性不如NVIDIA。TPU v5:強大但封閉,僅供Google雲自用。H100:依託CUDA生態+強力硬體,仍是主流企業首選。四. 成本和ROI分析1、成本結構(1)直接採購成本NVIDIA H100 GPU的直接採購價格因型號和配置而異。根據市場資料,SXM5型號的單個GPU起價約為195,343 CNY($27,000 USD),NVL型號約為209,354 CNY($29,000 USD)。對於多GPU系統,價格隨數量增加而明顯提升,例如,四個SXM5 GPU的總價約為777,973.6 CNY($108,000 USD),八個GPU可能達到1,555,947.2 CNY(僅GPU成本)。完整的伺服器配置需包括基礎設施,成本通常在1,801,325 CNY至2,882,120 CNY之間,具體涉及InfiniBand網路(每節點約14,411至36,027 CNY,交換機約144,106至720,530 CNY)、電力基礎設施(約72,053至360,265) CNY)、冷卻系統(約108,080至720,530 CNY)和燃油基礎設施(每台發動機約36,027至108,080 CNY)。廠商折扣和定製化同樣影響價格,單GPU價格可能在195,343至288,212 CNY之間波動,尤其是對於企業批次採購。(2)雲租賃成本雲租賃提供了一種消費大額前期投資的靈活選項。2025年,主流雲頂的H100小時GPU租賃價格已顯著下降,範圍從21.58元至71.93元/小時/GPU。根據市場趨勢,2025年雲價格將從2024年的約57.64元/小時降至21.58至25.22元/小時,原因包括市場供應增加、更多資料中心參與和競爭加強。為便於觀察比較,以4個GPU、24小時/天的使用場景為例:按3 USD/小時(約21.62 CNY/小時)計算,每日成本為2,075.13 CNY(4 × 24 × 21.62),每月(30.4天)約63,128 CNY。按最高9.98 USD/小時(約71.93 CNY/小時)計算,每日成本為6,905.28 CNY,月成本約為209,920 CNY。(3)營運成本營運成本是總擁有成本(TCO)的重要組成部分。H100 GPU的功耗高達700瓦/個,這意味著對於大規模部署,電力成本可能相當顯著。例如,4個GPU每天24小時運行,按每千瓦時1元計算,月電力成本約為2,027.52人民幣(700瓦×4×24×30.4÷1000×1)。此外,冷卻系統和網路基礎設施的維護成本也需要撥款,具體金額視設施地區而定。2、投資期回報ROI的核心在於比較採購和雲租賃的長期成本效益。以4個GPU系統為例,假設採購成本為864,636元(包括GPU和基礎伺服器),雲租賃成本按3美元/小時/GPU(約21.62元/小時)計算:每日雲成本:4 × 24 × 21.62 = 2,075.13 CNY;每月雲成本:2,075.13 × 30.4 ≈ 63,128 CNY。投資期返回為:864,636 ÷ 63,128 ≈ 13.7個月,約14個月。這意味著,在14個月後,雲租賃的總成本將超過採購成本,採購開始得出結論。若按上述雲價格(如9.98美元/小時,約71.93人民幣/小時),每日成本為6,905.28人民幣,月成本約209,920人民幣,投資回周期至約4.1個月(864,636 ÷ 209,920 ≈ 4.12),但實際使用中,低價最為常見。五. 面向不同企業的選型建議參考文獻:《NVIDIA H100 Tensor Core GPU》(AI算力那些事兒)
2美元/小時出租H100:GPU泡沫破滅前夜
紅杉資本的報告曾指出,AI產業的年產值超過6000億美元,才夠支付資料中心、加速GPU卡等AI基礎設施費用。而現在一種普遍說法認為,基礎模型訓練的資本支出是“歷史上貶值最快的資產”,但關於GPU基礎設施支出的判定仍未出爐,GPU土豪戰爭仍在進行。尤其是,以OpenAI為代表的大模型公司在訓練+推理上的支出超過了收入,最近他們在有史以來最大的風險投資輪中籌集了66億美元,同時預計2026年的虧損將達到140億美元。 近期,NVIDIA的新一代Blackwell系列晶片交付給了OpenAI,他們還表示接下來一年的產品已經售罄,NVIDIA CEO黃仁勳指出這可能是行業歷史上最成功的產品。與此同時,AMD CEO蘇姿丰推出了MI325X,而AI推理晶片公司Cerebras提交了IPO申請。 隨著數十億美元投入到AI基礎設施層,這會促進AI上層的繁榮還是泡沫?現在,是時候深入探討GPU市場的時候了。 本文作者Eugene Cheah深入研究了H100市場,可能為即將到來的Blackwell晶片的未來走向提供一些參考。他指出,由於預留計算資源的轉售、開放模型的微調以及基礎模型公司的減少,市場上的H100算力已經供過於求,尤其是H100從去年以8美元/小時到現在多家算力轉售商以低於2美元/小時的價格出租。經過深度分析後,他建議使用者在需要時租用而不是購買算力。